AI资讯新闻榜单内容搜索-ICLR

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: ICLR
ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

ICLR 2026 | 世界模型卡在多机器人协作?一个「顺序分解」思路打通

近年来,Decision-Coupled World Model 与 Model-based RL 在机器人领域取得了显著成功。通过学习环境动力学模型,智能体能够在内部模拟未来,从而进行规划与决策。但当系统从单机器人扩展到多机器人时,问题开始变得棘手。

来自主题: AI技术研报
9893 点击    2026-04-02 16:22
ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache,刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存(Feature Caching)方案在追求高倍率加速时,常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报
7594 点击    2026-04-01 16:13
ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

ICLR 2026 Oral | 大道至简!斯坦福、英伟达、新国立联合推出InfoTok,用信息论重新定义高效视频分词

在生成式 AI 领域,视觉分词器(Visual Tokenizer)通常采用固定压缩率 —— 无论是单调的监控画面,还是复杂的动作大片,都被切分为等量的 Token。这种 "一刀切" 的做法不仅会造成巨大的计算冗余,也产生了 “信息量” 不同的 Token,不利于下游理解生成任务处理。

来自主题: AI技术研报
5392 点击    2026-03-31 10:03
ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

ICLR 2026 | 让多模态模型学会主动说话:主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报
8215 点击    2026-03-30 15:02
ICLR 2026 | ESC — 解构一步生成,厘清细节,探寻本质

ICLR 2026 | ESC — 解构一步生成,厘清细节,探寻本质

ICLR 2026 | ESC — 解构一步生成,厘清细节,探寻本质

近期,基于捷径化概率流路径(shortcut probability flow trajectory)并从头训练的一步扩散生成模型,展现出强大的实证有效性。然而,这类方法的提出通常建立在较为复杂的理论推导之上,并且往往与具体实现细节高度耦合。这带来一个直接的问题:究竟哪些设计是方法成立的本质要素,哪些又只是可以灵活替换的实现组件。

来自主题: AI技术研报
7033 点击    2026-03-24 17:19
ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑

ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑

ICLR 2026 | Shop-R1: 给AI补上「内心戏」,在RL博弈中复刻人类网购脑

传统的 AI 购物助手更像是一个任务完成机器:接到指令,搜索,下单。他们或许能跑通流程,却完全无法理解用户为何在最后一刻因为一条关于 “夹耳朵” 的差评而放弃支付。简而言之,传统的电商 Agent 只是任务导向的(task-oriented),而不是模拟导向的(simulation-oriented)。为此,来自亚马逊(Amazon)的研究团队提出了名为 Shop-R1 的训练框架 。

来自主题: AI技术研报
7202 点击    2026-03-21 09:28
ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?

来自主题: AI技术研报
6560 点击    2026-03-16 14:27
ICLR 2026 | LongHorizonUI:让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架

ICLR 2026 | LongHorizonUI:让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架

ICLR 2026 | LongHorizonUI:让 GUI 智能体不再"半途而废"——面向长链路任务的统一鲁棒自动化框架

在移动端和桌面端的日常使用中,许多操作并非点一下按钮就能完成。预订一场会议、在游戏商城中购买并装备一件道具、又或者在多个应用之间完成一组连贯的工作流 —— 这些任务通常需要十几步甚至几十步的连续交互。

来自主题: AI技术研报
5905 点击    2026-03-13 09:57